Janvier 2019

Plan

  1. Analyse des données importées
  2. Nettoyage des données
  3. Statistiques descriptives
  4. Analyse des composantes principales (ACP)
  5. Clustering
  6. Bonus

1. Analyse des données importées

Introduction

Le dataset contient toutes les ventes émises par un magasin en ligne basé au Royaume-Uni. Le magasin vend des cadeaux uniques pour toutes les occasions.

8 variables

1. InvoiceNo: Contient le numéro de la facture
2. StockCode: Numéro d'identification du produit (C indique une annulation)
3. Description: Description du produit
4. Quantity: Quanitités de pièces commandé
5. InvoiceDate: Date de la facture avec l'heure
6. UnitPrice: Prix de l'unité en livre sterling
7. CustomerID: ID du client (NA lors de modification de stock)
8. Country: Pays destinataire

1. Analyse des données importées

Source:

Source: https://archive.ics.uci.edu/ml/datasets/Online+Retail

Période:

Du 1/12/10 08:26 au 9/12/11 12:50

Taille:

541909 lignes dans le dataset

2. Nettoyage des données

a. Données non pertinentes

1. C: Annulation
2. C2: Transport
3. D: Réductions
4. POST: Frais postaux
5. M: Ajout manuel
6. BANK CHARGES: Frais bancaire
7. PADS: Frais d'emballage
8. DOT: DOTCOM POSTAGE
9. UnitPrice < 0
10. Quantity < 0
11. CustomerID = NA

2. Nettoyage des données

b. Nombre de lignes Nettoyées

541909 lignes à la base
396337 lignes après nettoyage
391150 lignes après nettoyage et suppression des duplications
Pourcentage retiré : 27.81998 %

3. Statistiques descriptives

a. Analyse générale

i. Nombre de pays: 37 (Attention 37 + 'undefined')
ii. Nombre de factures (uniques): 18402
iii. Nombre de clients (uniques): 4334
iv. Nombre de produits (uniques): 3659

3. Statistiques descriptives

b. Analyse des ventes selon les pays

3. Statistiques descriptives

b. Analyse des ventes selon les pays

3. Statistiques descriptives

b. Analyse des ventes selon les pays

3. Statistiques descriptives

c. Analyse des ventes

     Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
     0.42    128.33    631.03   2387.87   2064.85 168469.60 

3. Statistiques descriptives

c. Analyse des ventes

     Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
     0.38    157.14    301.65    474.80    463.07 168469.60 

3. Statistiques descriptives

c. Analyse des ventes

Factures par mois en 2011

3. Statistiques descriptives

c. Analyse des ventes

Factures par jour en 2011

3. Statistiques descriptives

c. Analyse des ventes

Factures par heure du jour en 2011

3. Statistiques descriptives

c. Analyse des ventes

Chiffre d'affaire par mois

4. PCA

Aggrégation des données avec tous les pays

4. PCA

Aggrégation des données avec tous les pays sauf UK

4. PCA

Aggrégation des données avec tous les pays sauf UK

Matrice des corrélations

              NbOfProduct  Turnover NbOfCustomers NbOfInvoice
NbOfProduct     1.0000000 0.8167573     0.7181459   0.8766853
Turnover        0.8167573 1.0000000     0.5298723   0.7757819
NbOfCustomers   0.7181459 0.5298723     1.0000000   0.8919510
NbOfInvoice     0.8766853 0.7757819     0.8919510   1.0000000

4. PCA

Aggrégation des données avec tous les pays sauf UK

Sommaire des composants

Importance of components:
                          Comp.1    Comp.2     Comp.3     Comp.4
Standard deviation     1.7951395 0.6977192 0.37087114 0.20495248
Proportion of Variance 0.8286495 0.1251803 0.03536882 0.01080142
Cumulative Proportion  0.8286495 0.9538298 0.98919858 1.00000000

4. PCA

Aggrégation des données avec tous les pays sauf UK

4. PCA

Aggrégation des données avec tous les pays sauf UK

Poids des variables originales dans les composantes

Loadings:
              Comp.1 Comp.2 Comp.3 Comp.4
NbOfProduct    0.516  0.207  0.816  0.155
Turnover       0.470  0.672 -0.515  0.247
NbOfCustomers  0.474 -0.687 -0.221  0.504
NbOfInvoice    0.536 -0.182 -0.138 -0.813

               Comp.1 Comp.2 Comp.3 Comp.4
SS loadings      1.00   1.00   1.00   1.00
Proportion Var   0.25   0.25   0.25   0.25
Cumulative Var   0.25   0.50   0.75   1.00

4. PCA

Aggrégation des données avec tous les pays sauf UK

Lien entre les composantes et les variables (axis1)

4. PCA

Aggrégation des données avec tous les pays sauf UK

Lien entre les composantes et les variables (axis2)

4. PCA

Aggrégation des données avec tous les pays sauf UK

Cercle de corrélation

4. PCA

Aggrégation des données avec tous les pays sauf UK

Projection des données

NULL

4. PCA

Aggrégation de tous les produits

4. PCA

Aggrégation de tous les produits

Matrice des corrélations

                 Quantity Purchases NbOfCustomers Avg UnitPrice
Quantity       1.00000000 0.7474641    0.61811828   -0.08826218
Purchases      0.74746408 1.0000000    0.68451970    0.04854800
NbOfCustomers  0.61811828 0.6845197    1.00000000   -0.05353721
Avg UnitPrice -0.08826218 0.0485480   -0.05353721    1.00000000
NbOfCountry    0.45721675 0.4889382    0.78839734   -0.04236737
              NbOfCountry
Quantity       0.45721675
Purchases      0.48893816
NbOfCustomers  0.78839734
Avg UnitPrice -0.04236737
NbOfCountry    1.00000000

4. PCA

Aggrégation de tous les produits

Sommaire des composants

Importance of components:
                          Comp.1    Comp.2    Comp.3    Comp.4     Comp.5
Standard deviation     1.7030522 1.0056865 0.8236076 0.4957014 0.40347502
Proportion of Variance 0.5802359 0.2023364 0.1357030 0.0491574 0.03256732
Cumulative Proportion  0.5802359 0.7825723 0.9182753 0.9674327 1.00000000

4. PCA

Aggrégation de tous les produits

Plot du pca

4. PCA

Aggrégation de tous les produits

Poids des variables originales dans les composants

Loadings:
              Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
Quantity       0.487         0.535  0.685       
Purchases      0.504 -0.137  0.421 -0.638 -0.377
NbOfCustomers  0.536        -0.303 -0.225  0.755
Avg UnitPrice        -0.989         0.119       
NbOfCountry    0.470        -0.665  0.240 -0.528

               Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
SS loadings       1.0    1.0    1.0    1.0    1.0
Proportion Var    0.2    0.2    0.2    0.2    0.2
Cumulative Var    0.2    0.4    0.6    0.8    1.0

4. PCA

Aggrégation de tous les produits

Lien entre les composantes et les variables (Axis1)

4. PCA

Aggrégation de tous les produits

Lien entre les composantes et les variables (Axis2)

4. PCA

Aggrégation de tous les produits

Cercle de corrélation

4. PCA

Aggrégation de tous les produits

Projection des données

NULL

5.1 Clustering des pays

Calcul du nombre de clusters (Elbow Method)

5.1 Clustering des pays

Table des clusters

 1  2  3  4 
24  2  2  8 

5.1 Clustering des pays

5.1 Clustering des pays

Clusters sur base du PCA

5.2 Clustering des produits

Calcul du nombre de clusters (Elbow Method)

5.2 Clustering des produits

Table des clusters

   1    2    3    4    5 
  10 1034  261    6 2348 

5.2 Clustering des produits

5.2 Clustering des produits

Clusters sur base du PCA

6. Bonus